基于 CAT 的 在 线 标定 : 设计 与 方法 
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摘 要 项 目 增补 是 题库 建设 和 维护 的 重要 手段 ， 而 标定 新 题 参数 是 项 目 增补 的 重要 内 容 。 
在 线 标定 设计 和 在 线 标定 方法 分 别 研究 新 题 的 施 测 方式 和 参数 估计 方法 , 是 计算 机 化 自 适 应 


测验 (computerized adaptive testing, CAT) 情景 下 项 目 增补 的 核心 技术 。 重 点 厘清 在 线 标 


定 设计 与 在 线 标定 方法 的 发 展 思路 和 脉络 ， 


并 对 它们 的 特点 、 联 系 和 表现 进行 介绍 和 评价 。 


未 来 应 基于 其 他 信息 指标 进一步 研究 在 线 标定 设计 , 可 基于 联合 估计 和 误差 校正 的 思路 探究 
在 线 标定 方法 ， 应 加 强 研究 认 知 诊断 CAT 和 多 维 CAT 的 在 线 标定 技术 ， 深 入 开展 项 目 增补 


方法 的 实证 研究 。 
关键 词 ” 计 算 机 化 自 适 应 测验 ， 认 知 诊断 型 
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1 引言 


LE 论 ， 项 目 增补 ， 在 线 标定 设计 ， 在 线 标定 方法 


随 着 现代 测量 学 理论 和 信息 技术 的 不 断 发 展 ， 计 算 机 化 自 适应 测验 (computerized 


adaptive testing, CAT) 已 成 为 心理 与 教育 测 


根据 被 试 当前 的 能 力 估计 水 平 为 被 试 选择 最 


量 领 域 的 重要 分 支 ， 受 到 研究 者 们 的 青睐 。CAT 


xk 
人 施 测 ”的 自 适 应 思想 ， 从 而 在 保证 测量 精度 


合 的 题目 作答 ,实现 测验 的 “量体裁衣 ”、“ 因 
的 前 提 下 大 大 减少 了 测验 的 长 度 。 除 此 之 外 ， 


CAT 使 得 项 目 呈 现 更 加 标准 化 ， 实 现实 时 评分 ， 还 能 提高 测验 的 安全 性 和 公平 性 。 


CAT 由 事先 完成 标定 的 题库 、 初 始 项 目 选 择 、 选 题 策略 、 能 力 估计 方法 以 及 终止 规则 
五 个 部 分 组 成 ( 陈 平等 , 2013)。 其 中 ， 题 库 是 CAT 的 基础 ， 其 质量 的 高 低 将 影响 测验 的 安全 
性 和 准确 性 。 当 题库 中 的 试题 被 长 期 使 用 时 ， 一 部 分 题目 必定 会 因 过 度 曝光 、 内 容 陈 旧 或 本 


身 有 缺陷 等 问题 ， 将 不 再 适合 继续 使 用 (Wainer & Mislevy, 1990)。 因 此 ， 有 必要 定期 开发 新 


n 


题 对 存在 问题 的 试题 进行 蔡 换 ， 并 且 新 题 必 须 经 过 传统 纸 笔 试 测 或 CAT 的 方式 标定 参数 后 


才能 纳入 正式 题库 。 特 别 
陈 平等 人 (2013) 指 出 在 线 标定 中 考生 同时 作 


地 ,在 CAT 测试 过 程 中 收集 信息 并 估计 项 目 参 数 ， 称 为 在 线 标定 。 


答 旧 题 和 新 题 ， 依 据 旧 题 参 数 佑 计 考 生 能 力 进 而 


估计 新 题 参 数 ， 相 当 于 销 人 设计 ， 这 样 就 很 自然 地 将 新 题 参数 置 于 旧 题 同一 量 尺 上 。 因 此， 


在 线 标 定 不 再 需要 复杂 的 等 值 方法 。 与 传统 方法 相 比 ， 在 线 标 定 因 不 需要 组 织 单独 的 试 测 ， 
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大 大 节省 了 题库 维护 的 成 本 和 时 间 , 减轻 了 测验 开发 者 的 负担 , 在 大 规模 题库 维护 中 具有 习 
要 的 实践 意义 。 
具体 而 言 ， 在 线 标定 是 指 在 CAT 测试 中 将 新 题 嵌 入 测验 的 不 同位 置 ， 当 考生 到 达 向 入 
位 置 时 ， 将 新 题 以 一 定 方式 分 配给 考生 作答 ， 并 收集 反应 数据 用 于 估计 新 题 参 数 的 过 程 
(Wainer & Mislevy, 1990)。 在 线 标定 包括 新 题 的 庶 入 位 置 、 选 题 方 法 ( 称 为 在 线 标定 设计 )、 
参数 估计 ( 称 为 在 线 标定 方法 ) 和 终止 规则 四 个 方面 (Zheng, 2014)。 迄 今 为 止 ， 研 究 集 中 于 
新 题 的 选 题 设计 和 参数 估计 算法 ， 对 新 题 的 嵌入 位 置 和 终止 规则 的 研究 还 比较 薄弱 。 

首先 , 在 线 标定 设计 分 为 随机 标定 设计 和 自 适 应 标定 设计 。 早 期 研究 者 将 自 适 应 标定 设 
计 看 作 取样 设计 ( Berger, 1992; Jones & Jin, 1994)， 自 适应 的 选取 参与 标定 的 最 优 考 生 样 本 。 
即 根据 项 目 特征 “ 选 人 ”的 方法 , 包括 D- 优 化 和 序 贯 DD- 优 化 ( Berger, 1994; Chang & Lu, 2010; 
Jones & Jin, 1994 )。 现 阶段 ， 研 究 从 “ 选 人 ”过 渡 到 “ 选 题 ” 由 在 为 当前 考生 施 测 最 适合 
其 标定 的 项 目 。 一 方面 基于 项 目 信息 标准 建构 了 两 点 D- 优 化 设计 (Ren et al., 2017)、 贝 叶 斯 


limi 
pa 


D- 优 化 设计 (van der Linden & Ren, 2015). (525 FER EI He et al., 2019) D-c 设计 (He & Chen, 


2020)， 另 一 方面 基于 考生 样本 约束 提出 适合 度 指 标 法 (Ali & Chang, 2014) 和 区 间 序 列 信息 优 


先 指标 法 (Zheng, 2014). 


其 次 ， 在 线 标定 方法 在 传统 CAT、 多 维 CAT(multidimensional CAT, MCAT) 和 认 知 诊断 


CAT(cognitive diagnostic CAT, CD-CAT) 都 有 研究 。 传 统 CAT 中 的 在 线 标定 方法 主要 分 为 条 


件 极 大 似 然 估 计 (conditional maximum likelihood estimation, CMLE)( 陈 平 , 2016; 游 晓 锋 等 ， 


2010; He et al., 2017; Stocking, 1988)、 边 际 极 大 似 然 估计 /期 望 极 大 算法 (marginal maximum 


likelihood estimation via expectation maximization method, MMLE/EM)(Ban et al., 2001; Chen 


& Xin, 2013; Wainer & Mislevy, 1990) 和 贝 叶 斯 估计 方法 (Chen, 2017; Zheng, 2014). MCAT 主 
要 以 推广 传统 CAT 的 方法 为 主 。CD-CAT 中 包括 项 目 参 数 估计 ( 陈 平 ， 辛 涛 , 2011a)、O HERE 
赴 计 ( 汪 文 义 等 , 2011)、 联 合 估计 项 目 参数 和 2@ 和 矩阵 ( 陈 平 ， 辛 涛 ,2011b; H, 2019; Chen et 


一 、 


al., 2015). 

本 文 的 第 二 、 三 部 分 重点 对 在 线 标定 设计 与 在 线 标定 方法 的 特点 、 ZEA RET SPE 
和 评价 , 厘清 相关 研究 的 发 展 思 路 和 脉络 ; 第 四 部 分 简单 回顾 新 题 嵌 入 位 置 和 终止 规则 的 下 
究 进展 。 在 此 基础 上 ， 第 五 部 分 针对 传统 CAT、CD-CAT、MCAT 在 线 标定 设计 、 在 线 标定 
方法 的 理论 与 实践 提出 一 些 具体 的 研究 方向 和 展望 。 
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为 了 行文 方便 ， 先 对 文中 的 符号 进行 说 明 。 首 先 , LR [分别 表示 待 标定 的 新 题记 及 其 


参数 向 量 ， RK, 表示 新 题库 ， 太 1 表示 当前 已 作答 新 题 j 的 被 试 人 数 ，xy 表示 考生 i EM 
/上 的 作答 反应 ，0 表示 考生 i 的 能 力 估计 值 。 
2 在 线 标定 设计 

在 线 标定 设计 即 新 题 的 施 测 方式 。 如 何 将 被 试 与 新 题 合理 搭配 以 优化 题目 参数 标定 的 效 
率 是 在 线 标定 设计 的 核心 问题 。Wainer 和 Mislevy (1990) 最 早 提出 随机 和 自 适应 两 种 在 线 标 
定 的 设计 方式 。 其 中 ,随机 标定 设计 为 每 个 被 试 从 新 题库 随机 选取 固定 数量 的 新 题 , 并 随机 
嵌入 测验 进行 施 测 。 游 晓 锋 等 人 (2010)、 汪 文 义 等 人 (201D 和 陈 乎 (2016) 的 研究 都 运用 了 随 
机 标定 设计 。 游 晓 锋 等 人 (2010) 研 究 发 现 随机 设计 中 新 题 的 作答 次 数 越 多 参数 估计 越 准 确 。 
随机 标定 设计 简便 易 行 , 但 嵌入 新 题 的 难度 与 相 邻 题目 的 难度 可 能 存在 明显 差异 , 考生 易 察 
觉 ， 造 成 不 认真 作答 从 而 影响 参数 估计 的 精度 。 更 重要 的 是 ， 随 机 设计 没有 体现 CAT 自 适 
应 的 优点 。 

自 适 应 标定 设计 按 标准 选取 最 能 反应 项 目 特征 的 被 试 , 或 者 选取 最 适合 当前 被 试 标定 的 
新 题 施 测 ， 成 为 在 线 标定 设计 研究 的 新 方向 。 根 据 在 线 标定 设计 指标 建构 的 思路 ， 可 将 在 线 
标定 设计 分 为 基于 项 目 信息 标准 和 基于 考生 样本 约束 的 最 优 设 计 两 类 。 
2. 基于 项 目 信息 标准 的 最 优 设计 

利用 项 目 参数 的 信息 量 来 反映 参数 估计 误差 , 是 基于 项 目 信息 标准 最 优 设 计 的 基本 思路 。 
基于 项 目 信 息 标 准 的 最 优 设 计 主 要 包括 D- 优 化 ， 序 贯 D- 优 化 ， 两 点 D- 优 化 ， 贝 叶 斯 D- 优 
化 ， 优 秀 度 指 标 和 D-c 设计 等 。 
2.1.1 D- 优 化 设计 方法 及 其 改进 

D- 优 化 设计 通过 最 大 化 项 目 参 数 Fisher 信息 矩阵 的 行列 式 来 最 小 化 项 目 参 数 的 广义 协 
方差 ， 是 一 种 以 优化 项 目 参 数 估计 效率 为 目标 的 统计 指标 (Zheng, 2014)。 当 新 题 j 已 经 被 


anb 


kl 个 考生 作答 ， 选 取 第 大 个 考生 时 ， 将 选取 使 式 〈1) 最 大 化 的 能 力 为 0 的 最 优 考生 作答 


该 项 目 ， 换 言 之 ， 


k= ^ 
0, — arg max (det 9 ^ 11, (5.6, )- 1,(8,,0)].0 e 9), (1) 


HH, O 代表 所 有 考生 能 力 0 的 集合 ，7(06 ,6) 代 表 被 试 ; 提供 给 新 题 / 参数 向 量 的 Fisher 


=a 


Aut 


lii 


lim] 


` Y, OREN k1 个 考生 在 新 题 j 参数 向 量 上 累计 的 信息 量 。 在 D- 优 化 基础 


-l 


E, Berger (1992) 指 出 2PLM HES) AMEN OAD, +1.542/a, 。 因 此 ， 选 取 能 力 佑 


计 值 与 0, 最 接近 的 被 试 施 测 新 题 j， 称 为 两 点 DD- 优 化 设计 法 (Two-point D-Optimal Design, 


D-Tp). Chang 和 Lu (2010) 基 于 最 优 能 力 准则 ， 在 不 定 长 CAT 中 直接 应 用 两 点 D- 优 化 设计 
法 ， 并 按 序 贯 的 方式 选取 被 试 作答 新 题 ， 称 其 为 序 贯 D- 优 化 设计 。 

D- 优 化 方法 虽 体 现 了 CAT 自 适 应 的 特点 ， 但 它 假设 存在 一 个 由 所 有 考生 组 成 的 “静态 
ER”, 库 中 考生 的 能 力 已 知 ， 考 生 可 被 任意 选用 为 题目 标定 的 样本 ,忽视 了 真实 CAT 情 
景 下 ， 在 某 时 间 点 参与 测验 的 考生 人 数 不 可 控 ， 导 致 “考生 库 ” 难 以 建构 ， 同 时 很 难 找到 与 


0, 准确 匹配 的 考生 。 


基于 D- 优 化 设计 的 不 足 ， 研 究 者 一 方面 从 单 点 能 力 优 化 设计 扩展 到 能 力 区 间 的 优化 设 
计 。 例 如 ，Hassan 和 Miller (2019) 基 于 限制 性 最 优 设计 的 思想 , 提出 按照 在 最 优 能 力 区 间 而 
不 是 最 优 设计 点 进行 取样 ， 称 其 为 局 音 性 最 优 设计 。 实 验 结果 表明 ， 限 制 性 D- 优 化 设 
计 比 随机 设计 取样 效率 更 高 。 另 一 方面 ， 从 “ 依 题 选 人 ”的 思想 过 渡 到 “ 依 人 选 题 ”。 例 如 ， 
Ren 等 人 (2017) 认 为 从 单 点 能 力 抽样 被 试 不 能 产生 稳定 的 参数 估计 值 ， 同 时 基于 D- 优 化 和 
A- 优 化 CBuyske, 1998) 视角 将 最 优 能 力 替 换 为 最 优 作答 概率 ,提出 D-Tp1、D-Tp2 和 D-Tp3 
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方法 。 有 具体 而 言 , CRS p ESR PRA 位 置 时 的 能 力 估 计 值 为 0,, 那么 D-Tp1、D-Tp2 


和 D-Tp3 三 种 方法 分 别 选 择 使 16, - 0 [»,|8, -0P |"). (| P,, 一 0.176 [»,| P, — 0.824 [7v] 


RI (| P, -0.25»,| P, -0.75 ^" 最 小 的 项 目 给 当前 考生 作答 。 其 中 ， 当 项 目 j 作 答 奇 数 次 时 ， 


令 0% =0， 反 之 为 1。 结果 表明 ， 这 三 种 方法 的 参数 估计 精度 无 明显 差异 ，D-Tp2 的 正确 作 


答 概率 相对 D-Tp3 更 极端 ， 容 易 造 成 所 选 试题 难度 与 前 后 题目 难度 差异 较 大 ， 不 利于 新 题 
参数 的 估计 (Ren et al., 2017)。 此 外 ，Kang 等 人 (2020) 还 从 丰富 被 试 信息 的 视角 ， 利 用 被 试 
的 反应 时 信息 ， 在 联合 反应 和 反应 时 模型 下 考察 D- 优 化 、A- 优 化 和 随机 方法 的 表现 。 结 果 
表明 ， 在 参数 标定 过 程 中 增加 反应 时 能 明显 提高 参数 估计 的 准确 性 和 效率 。 

2.1.2 贝 叶 斯 DD 优化 设计 


van der Linden 和 Ren (2015) 在 DD- 优 化 基础 上 根据 当前 考生 p 的 能 力 估计 值 ô, ， 选 择 使 


当前 累加 考生 样本 与 之 前 累加 考生 样本 相 比 , 能 提供 项 目 参数 Fisher 信息 增 量 最 多 的 项 目 给 
考生 p 作答 ， 提 出 贝 叶 斯 版 本 的 D- 优 化 设计 ， 称 为 D-VR 设计 。 即 ， 


j= arg max (de[3 7 /1,(5,.6 )*1(8,,0,)]- dei[Y 7 (00 M] (2) 


new 


RR, eO 在 计算 中 是 结合 了 被 试 能 力 和 新 题 参 数 的 先 验 信息 。 这 种 方法 虽 从 “ 选 


人 ”过 渡 到 “ 选 题 ” 考虑 了 现实 的 可 行 性 ， 并 在 大 样本 条 件 下 的 标定 效率 较 高 ， 但 是 D-VR 
更 倾向 于 选择 具有 统计 优势 的 项 目 而 忽略 了 其 它 项 目 ， 导 致 作答 每 个 项 目的 样本 量 不 均衡 。 
另外 ， 这 种 设计 也 容易 造成 所 选 试题 的 难度 与 前 后 题 难 度 差异 明显 。 
2.1.3 优秀 度 指标 和 D-c 设计 

鉴于 D-VR 设计 中 到 达 内 入 位 置 的 当前 考生 不 一 定 是 最 优 考 生 样本 , He 等 人 (2019) 结 合 
D- 优 化 的 思路 对 D-VR 改进 ， 提 出 以 式 〈2) 表示 的 最 优 考 生 在 新 题 / 上 提供 的 信息 增 量 为 


I 


基准 ， 衡 量 当 前 考生 0, 相对 于 最 优 考 生 0, 在 标定 新 题 / 上 的 优秀 程度 ， 选 取 优秀 程度 最 高 


的 题目 给 当前 考生 作答 ， 称 为 优秀 度 指标 (excellence degree, ED) 方法 。 即 ， 
def) (BO ) * 1,05,.0,)]- det ,7,(5,.0, JI 
Tee det, (B,.8,)+ 1 (BO) -de Y, 1,(B,.4,)I 
实验 表明 ， 在 所 有 条 件 下 ，ED 设计 在 参数 估计 精度 和 标定 效率 上 都 优 于 D-VR 设计 。 
He 和 Chen (2020) 还 从 项 目 参数 估计 误差 的 角度 提出 了 D-c 设计 。 该 方法 根据 当前 考生 p 的 


(3) 


Jj =arg 


能 力 估 计 水 平 O,， 从 新 题库 中 选取 能 使 项 目 参数 估计 误差 产生 最 大 减少 量 的 项 目 j 施 测 给 


考生 p， 即 最 大 化 (4) 式 ， 
j = arg max{det[ 7,(B,,0))"]-det[ O17,(B,,0)+1(B,,0,) D 


其 中 ，(2 LE 8)" REE Ke 个 考生 在 新 题 j SMT ERNE EE. Doc 设 


i5 D-VR 和 D-Tp 相 比 ， 能 产生 更 高 的 参数 估计 精度 和 效率 。 特 别 地 ， 当 加 入 新 题 参数 先 
验 信息 时 ， 贝 叶 斯 版 本 的 D-c 设计 更 能 提高 参数 估计 的 精度 和 效率 (He & Chen, 2020). 
2.2 基于 考生 样本 约束 的 优化 设计 

针对 D-VR 方法 中 参与 标定 的 考生 样本 量 不 均衡 的 问题 ，Ali 和 Chang 2014). Zheng 
Q014) 分 别 基于 考生 样本 量 和 考生 能 力 范围 的 角度 对 参与 标定 的 考生 样本 进行 约束 ， 分 别 


提出 适合 度 指标 (suitability index,ST) 和 区 间 排 序 信 息 优 先 指标 (ordered informative range 


priority index, OIRPI). 


2.2.1 适合 度 指标 


SI 方法 将 考生 能 力 值 划 为 r 个 区 间 ， 设 每 个 区 间 权 重 为 @, ， 并 约束 每 个 能 力 区 间 中 作 


答 新 题记 的 目标 样本 量 为 六 。 该 方法 通过 7 和 实际 取得 的 样本 量 妃 去 平衡 每 道 试 题 在 不 同 


能 力 区 间 的 样本 量 ， 即 ， 

St, - (6, -0) [ [E wt, -t,)/t,] (5) 

与 基于 信息 量 的 D- 优 化 统计 指标 有 所 不 同 ，SI 指标 通过 平衡 相 邻 题目 间 的 难度 和 不 同 

能 力 区 间 的 考生 样本 量 来 优化 项 目 参数 估计 效率 。 研 究 表明 ，SI 指标 能 明显 提高 随机 方法 

的 标定 精度 ， 但 SI 方法 的 目标 样本 和 权重 都 是 主观 设 定 ， 难 以 保证 其 代表 性 和 科学 性 。 
2.2.2 区 间 排序 信息 优先 指标 


Zheng (2014) 提 出 的 OIRPI 方法 首先 将 考生 能 力 划 分 为 > 个 区 间 ， 并 令 每 个 区 间 > 的 中 


AJ O, 。 然 后 计算 每 个 新 题 / 在 所 有 能 力 区 间 的 D- 优 化 信息 值 D, =》 7,(@ )+1,(@)， 


在 此 基础 上 将 每 个 区 间 的 DD; 标准 化 得 到 5j 。 最 后 选取 当前 考生 所 在 区 间 Sj 值 最 大 的 项 目 


7 施 测 给 当前 考生 。 即 ， 


D, 一 min uv(D， 
ES SEa meu) a (6) 
max reR (D,.) 7 min c, (D,.) 


OIRPI 指标 将 新 题 在 不 同 能 力 区 间 的 D- 优 化 指标 值 标准 化 ， 并 用 于 表示 题目 对 不 同 能 
力 区 间 考 生 的 需求 度 , 再 为 当前 区 间 的 考生 选取 需求 度 最 大 而 不 是 基于 信息 量 的 指标 值 最 大 
的 题目 施 测 。 因 此 ，OIRPI 考虑 了 其 他 题目 对 当前 考生 的 需求 度 ， 解 决 了 D-VR 设计 中 因 项 
目 统计 优势 而 导致 的 样本 不 均衡 的 问题 。Zheng 和 Chang (2017) 指 出 OIRPI 提高 了 D- 优 化 、 
D-VR 和 随机 方法 的 标定 效率 。 
注意 到 ， 自 适应 标定 设计 的 指标 都 依赖 于 新 题 参数 的 初始 值 。 针 对 新 题 参数 的 初始 值 ， 
Wainer 和 Mislevy (1990) 建 议 出 题 者 依据 主观 判断 给 出 新 题 参 数 的 初始 值 ; Markansky (2009) 
和 Zhu (2006) 则 提出 两 阶段 设计 来 获取 参数 的 初始 估计 值 。 于 是 ， 陈 平和 
CD-CAT 情景 下 运用 两 阶段 法 ， 将 在 线 标定 分 为 预 标定 和 重新 标定 两 个 阶段 ， 并 比较 了 两 个 
阶段 的 样本 比例 对 标定 结果 的 影响 。 
2.3 在 线 标定 设计 简 评 

在 线 标定 设计 指标 反映 了 被 试 与 新 题 的 匹配 度 , 其 建构 思路 可 以 从 两 个 角度 分 析 ( 见 表 
D. 一 方面 , 基于 项 目 视角 则 是 利用 项 目 特征 的 信息 量 反 映 参 数 估计 误差 的 思路 建构 在 线 标 
定 设计 指标 ， 指 标的 建构 从 “ 选 人 ”过 渡 到 了 “ 选 题 "?。 总 体 上 ， 随 着 样本 量 和 参数 初始 估 


计 精 度 的 提高 ，D-c 设计 表现 最 好 ， 其 次 是 D-Tp、D-VR 设计 。 男 一 方面 ， 基 于 考生 视角 的 


E 


3E T$ (2011a)fE 


Oo 


思路 则 是 约束 考生 样本 大 小 和 能 力 范围 来 提高 参与 标定 的 样本 的 质量 进而 建构 在 线 标定 选 
题 指 标 。 思 路 不 同 ， 在 参数 估计 精度 和 效率 上 的 表现 也 就 不 同 ， 随 着 嵌入 位 置 不 断 向 后 ， 
ORPI 的 表现 优 于 D- 优 化 、D-VR 和 随机 设计 《Zheng,2014)。 特 别 地 ， 自 适应 标定 设计 依 
赖 于 项 目 参 数 初始 值 ， 在 2PLM 和 3PLM 中 ， 区 分 度 参数 为 0.5 时 ， 随 机 方法 和 DD- 优 化 估 


计 精 度 最 高 ， 然 后 是 OIRPI, D-VR (Zheng & Chang, 2017)。 因 此 ， 现 有 的 研究 虽 多 ， 但 它 
们 都 容易 受到 样本 大 小 、 参 数 估计 初始 值 、 新 题 嵌 入 位 置 等 因素 的 影响 ， 由 此 造成 结论 存在 
不 一 致 的 情况 ， 有 待 进一步 的 研究 。 

目前 ， 在 线 标 定 设计 集中 于 传统 CAT. rfj CD-CAT 在 线 标定 设计 的 研究 很 少 。D- 优 化 
设计 是 基于 信息 标准 的 指标 , 最 初 是 用 于 表征 项 目 对 被 试 提供 信息 量 的 一 种 选 题 策略 , 将 其 
转换 为 被 试 对 项 目 提供 信息 量 指标 并 用 于 构建 在 线 标定 设计 指标 , 给 在 线 标定 设计 提供 一 
新 的 研究 视角 ， 必 将 成 为 今后 研究 在 线 标定 设计 的 重要 思路 。 因 此 ， 未 来 研究 可 以 借鉴 D- 
优化 设计 的 思想 , 考察 将 其 它 基于 信息 量 选 题 指 标 转换 到 建构 被 试 对 项 目的 信息 量 指标 的 可 
行 性 ， 并 考察 其 在 不 同 测验 条 件 下 的 表现 ， 针 对 CD-CAT 项 目 参 数 和 O 矩阵 的 标定 需求 ， 
AEB CAT 在 线 标定 思路 探索 CD-CAT 联合 标定 项 目 参数 和 O 矩阵 的 在 线 标定 设计 ; VE 
入 探究 样本 量 、 能 力 估计 精度 、 项目 参 数 初始 值 以 及 新 题 髓 入 位 置 对 自 适应 在 线 标定 设计 的 
影响 ， 为 实践 应 用 提供 方法 和 借鉴 。 


~ 表 1 已 有 的 CAT 中 的 在 线 标定 设计 
< 分 类 标准 方法 dus 
CS D- 优 化 、 序 贯 D- 优 化 自 适应 选取 被 斌 


I 


= 项 目 视角 : SMA 


D-TP、D-VR、ED 和 D-c 方法 


自 适应 选取 项 


考生 视角 : 能 力 与 样本 量 OIRPI、SI 指标 
3 在 线 标定 方法 
在 线 标定 方法 即 新 题 的 参数 估计 方法 。 目 前 ， 在 线 标定 方法 针对 传统 CAT. MCAT 和 


CD-CAT 都 有 一 定 的 研究 。 
3.1 传统 CAT 的 在 线 标定 方法 


3.1.1 CMLE 方法 


Stocking(1988) 最 初 提出 的 方法 A(Method A) 运 用 CMLE 的 思想 ， 将 能 力 估计 值 当 做 真 
值 来 标定 新 题 参 数 。 这 种 方法 容易 将 能 力 的 估计 误差 传递 到 新 题 的 标定 过 程 ， 导 致 新 题 参 数 
产生 偏差 ， 出 现 参 数量 尺 漂移 ， 从 而 降低 参数 估计 精度 。 于 是 ，Stocking(1988) 又 在 Method 


A 的 基础 上 提出 了 方法 B(Method B)， 并 在 测验 中 加 入 一 部 分 参数 已 经 标定 好 且 与 旧 题 在 同 
一 量 尺 上 的 锚 题 , 再 运用 等 值 技术 将 新 题 参数 置 于 旧 题 相同 的 量 尺 上 .方法 B 解决 了 方法 A 
中 参数 量 尺 漂移 的 问题 ， 但 增加 了 测验 长 度 和 等 值 计 算 ， 需 要 花费 更 多 的 时 间 和 精力 。 
另外 ， 陈 平 Q016)f He 等 人 (2017) 分 别 基 于 不 同方 法 校正 方法 A 中 能 力 估计 误差 。 有 具 
体 而 言 , 前 者 分 别 运 用 “全 功能 极 大 似 然 估计 ”和 “利用 充分 性 结果 估计 ”(Stefanski & Carrol, 
1985) 方 法 与 Method A 结合 用 于 估计 项 目 参 数 ， 得 到 FFMLE-A 和 ECSE-A 方法 。 后 者 提出 


了 一 种 改进 的 Lord 偏差 校正 法 ， 并 与 方法 A 结合 ， 得 到 MLE-LBCI- A 方法 。 研 究 表明 ， 


in| 


FFMLE-A, ECSE-A fll MLE-LBCI- A 方法 都 能 有 效 提 高 方法 A 的 标定 精度 〈 陈 平 , 2016; 


He et al., 2017)。 尤 其 是 在 短 测验 中 ，FFMLE-A、ECSE-A 与 最 优 的 MEM 算法 接近 【| 陈 平 


2016). 此外, Chen 和 Wang(2015) 还 将 FFMLE 方法 的 思路 应 用 到 MCAT 中 , 并 与 M-Method 


A 结合 ， 得 到 FFMLE-M-Method A， 并 指出 在 所 有 条 件 下 ，FFMLE-M-Method A 方法 的 参 


数 估计 精度 明显 高 于 M-Method A。 
除 上 述 方 法 外 ， 游 晓 锋 等 人 (2010) 提 出 的 单 参数 、 双 参数 以 及 多 重 迭 代 MLE 方法 也 是 


CMLE 思想 的 直接 应 用 。 


3.1.2 MMLE/EM 方法 


Wainer 和 Mislevy (1990) 基于 MMLE/EM 算法 衍生 出 单 循环 EM 算法 (one-cycle 


expectation-maximization method, OEM) 用 于 项 目 参数 在 线 标定 。OEM 方法 包含 了 一 个 卫 步 
和 M 步 。 其 中 ，BE 步 基 于 被 试 在 旧 题 上 的 作答 反应 计算 能 力 后 验 分 布 ，M 步 基于 被 试 在 新 
题 上 的 作答 反应 和 能 力 后 验 分 布 估计 新 题 参数 。OEM 通过 两 步 实 现 新 题 参数 估计 ， 方 法 简 
单 ， 但 在 参数 估计 过 程 中 并 未 利用 新 题 参 数 信息 。 


Ban 等 人 (2001) 提 出 了 多 循环 EM 算法 (multipie-cycle expectation-maximization method, 
MEM) 解 决 迭 代 不 收敛 的 问题 。MEM 包含 多 个 OEM 循环 ， 从 第 二 个 循 坏 开始 ， 同 时 利用 
考生 在 新 、 旧 题 的 作答 反应 和 新 题 参数 的 临时 估计 值 来 更 新 能 力 的 后 验 分 布 ,当前 后 两 次 项 
目 参 数 估计 值 之 间 的 平均 绝对 偏差 小 于 预定 精度 就 达到 收敛 ， 并 结束 估计 。Ban 等 人 (2001) 


指出 MEM 参数 估计 的 精度 最 高 ， 其 次 是 OEM, Method B 和 Method A, 但 MEM 的 迭代 周 
期 可 能 较 长 ， 比 较 耗 时 。 


基于 边际 极 大 似 然 方法 , Chen 和 Xin (2013) 将 OEM、MEM 和 Method A 推广 至 MCAT; 


Kang 等 人 (2020) 针 对 联合 反应 和 反应 时 模型 提出 了 边际 极 大 似 然 C marginal maximum 


likelihood estimation,MMLE ) 和 边际 极 大 后 验 概率 (marginal maximum a posteriori estimation, 


MMAP) Jj iX. 


3.1.3 贝 叶 斯 方法 


在 线 标定 初期 考生 样本 较 少 , EM 算法 中 参数 估计 不 易 收敛 , 为 了 缓解 这 一 问题 , Zheng 


(2014) 在 方法 A、OEM 和 MEM 方法 中 加 入 新 题 参数 的 贝 叶 斯 先 验 信息 ,提出 了 Bayesian-A . 


Bayesian-OEM 和 Bayesian-MEM 三 种 方法 , 并 在 三 种 单 维 IRT 模型 下 比较 了 参数 估计 精度 。 
结果 表明 ， 加 入 贝 叶 斯 先 验 信息 的 三 种 方法 均 表 现 较 好 。 其 中 ，Bayesian-MEM 表现 最 好 ， 
它 不 仅 能 彻底 解决 参数 不 收敛 的 问题 还 能 提高 参数 估计 精度 ,但 迭代 过 程 比较 耗 时 。 特 别 
地 ， 选 取 正 确 、 合 理 的 项 目 参数 先 验 信息 尤为 重要 。 由 此 ，Zheng (2014) 建 议 采 用 旧 题 参数 


的 先 验 分 布 作为 新 题 参 数 的 先 验 分 布 。Chen (2017) 又 将 Bayesian-OEM 和 Bayesian-MEM Jl 


叶 方 法 用 在 MCAT 中 ， 得 到 M-OEM-BME 和 M-MEM-BME 两 种 贝 叶 斯 方法 ， 并 比较 了 多 
种 在 线 标定 方法 ， 获 得 与 Zheng (2014) 一 致 的 结论 ， 即 加 入 新 题 参数 先 验 信息 能 够 明显 提高 
参数 标定 的 准确 性 和 效率 。 

研究 者 还 探究 了 多 级 评分 项 目的 在 线 标定 方法 。 例 如 ， 熊 建华 等 人 (2018) 改 进 了 传统 
CAT "P E] S638 ^L 391A I MEM 方法 并 将 它们 推广 至 等 级 反应 模型 (graded response model, 


GRM). Zheng (2016) 和 Xiong 等 人 (2020) 分 别 将 OEM 和 MEM 拓 广 到 分 步 评 分 模型 


Cgeneralizaed partial credit model, GPCM) 和 GRM 模型 。 实 验 结果 表明 ， 在 两 个 模型 下 ， 
OEM 和 MEM 均 表现 出 较 好 的 估计 精度 。 
3.2 CD-CAT 在 线 标定 方法 
与 传统 CAT 不 同 ，CD-CAT 除了 项 目 参 数 外 还 需要 估计 O 矩阵 。 针 对 项 目 参 数 估计 ， 


陈 平和 辛 涛 (2011a) 将 MethodA、OEM、MEM 推广 到 CD-CAT， 并 指出 CD-MethodA 最 简 


单 且 标定 精度 最 高 。 针 对 2 矩阵 的 估计 ， 汪 文 义 等 人 (2011) 在 新 题 参数 已 知 条 件 下 提出 了 


MLE、MMLE、 交 差 法 标定 项 目 属性 向 量 。 其 中 ， 交 差 法 利用 集合 的 交 运 算 和 差 运算 夹 通 
出 新 题 的 O 和 矩阵， 对 知识 状态 估计 精度 要 求 极 高 。 

针对 项 目 参数 和 O 算 阵 的 联合 估计 , 陈 平和 辛 涛 (2011b) 首 次 基于 RT 中 联合 极 大 似 然 
占 计 的 思路 ， 提 出 一 种 联合 估计 算法 (joint estimation algorithm, JEA). JEA 方法 的 第 一 步 ， 
给 定 新 题 的 gq 向 量 和 参数 的 初始 值 ， 采 用 MLE 〈 汪 文 义 等 , 2011) 估计 新 题 的 属性 向 量 q; 
第 二 步 ， 视 上 一 步 估计 的 g 向 量 为 真 值 ， 采 用 CD-MethodA 〈 陈 平 ， 辛 涛 , 2011a) 估计 新 题 
的 项 目 参数 , 循环 一 ， 二 步 直 到 满足 预先 设 定 的 收敛 标准 或 最 大 循环 数 。 该 方法 多 许 逐 个 标 
定 新 题 ， 在 大 样本 且 项 目 质量 较 高 时 ， 表 现 出 较 高 的 估计 精度 。 


单个 项 目 估 计 法 (single-item 


= 


接 下 来 ，Chen 等 人 (2015) 在 JEA 方法 的 基础 上 提出 了 


estimation, SIE) 。 有 具体 来 说 ， 采 用 EM 方法 为 新 题记 计算 在 每 一 种 可 能 的 q 向 量 下 的 项 目 参 


数 ， 再 将 项 目 参 数 看 做 已 知 ， 采 用 MLE 找到 最 大 似 然 值 对 应 的 9 向 量 和 参数 即 为 该 新 题 的 
q 向量 和 项 目 参 数 的 估计 值 。 随 后 他 们 又 在 SIE 的 基础 上 提出 同时 估计 多 个 项 目的 SimIE 77 
法 。 结 果 表 明 ， 在 2 矩阵 和 项 目 参 数 估计 精度 方面 ，SIE 和 SimIE 方法 优 于 JEA 方法 。 然 
HAR (2019) 提 出 了 适用 于 多 种 诊断 模型 的 广义 在 线 标定 方法 ， 分 别 在 SIE 和 JEA 77 
法 基础 上 基于 项 目 先 验 信息 提出 SIE-R 和 JEA-R 方法 ， 并 引入 模型 复杂 性 指标 提出 
SIE-R-BIC 和 JEA-R-BIC 方法 , 还 基于 作答 分 布 间 一 致 性 的 思想 提出 了 RMSEA-N 方法 。 谭 
FR (2019) 指 出 , 在 O 矩阵 和 项 目 参数 估计 的 精度 方面 , 新 提出 的 方法 都 优 于 已 有 的 方法 。 
3.3 在 线 标定 方法 的 简 评 

表 2 可 知 ， 现 阶段 在 线 标定 方法 的 研究 集中 于 传统 CAT， 并 以 单 维 二 级 评分 的 IRT 
模型 的 为 主 , 在 单 维 多 级 评分 IRT 模型 下 的 研究 较 少 , 未 来 研究 有 必要 在 多 级 评分 模型 下 比 
较 各 种 方法 的 表现 。 针 对 MCAT 和 CD-CAT 主要 是 将 传统 CAT 的 在 线 标定 方法 进行 推广 ， 
尚未 出 现 基于 MCAT 和 CD-CAT 自身 结构 特点 的 在 线 标定 方法 的 研究 。 注 意 到 CD-CAT 中 
要 么 假设 0 和 冠 阵 已 知 时 估计 项 目 参 数 ,要 么 假设 0 矩阵 未 知 时 联合 估计 O 矩阵 和 项 目 参数 。 
于 是 ， 未 来 研究 既 可 以 基于 校正 能 力 估 计 误 差 的 思路 校正 O 矩阵 估计 误差 以 提高 参数 估计 
精度 , 还 应 深入 研究 O 矩阵 和 项 目 参 数 的 联合 估计 方法 .特别 地 , 已 有 研究 大 都 聚焦 于 DINA 
模型 和 独立 性 属性 结构 。 随 着 认 知 诊断 模型 的 不 断 丰 富 ,今后 有 必要 探究 其 它 认 知 诊断 模型 、 
不 同属 性 层级 结构 、 结 合 被 试 和 项 目 特征 等 条 件 下 的 在 线 标定 方法 。 


K 2 CAT 中 项 目 参数 在 线 标定 方法 
分 类 标准 方法 特点 适用 情景 
MethodA, MethodB, 
和 传统 CAT/MCAT 
条 件 极 大 似 然 估 | 。 FFMLE-A MECSE-A č | 简单 、 易 操作 ， 需 
i MLE-LBCI-A 要 大 样本 传统 CAT 
CD-MethodA、MLE CD-CAT 
传统 CAT 中 二 级 和 多 级 
OEM、MEM 
" 计算 复杂 ， 耗 时 ， 评分 项 目 /MCAT 
MMLE/EM 算法 
CD-OEM、CD-MEM、 不 易 收敛 
CD-CAT 
MMLE 
贝 叶 斯 版 本 : 方法 A，OEM | 精度 高 、 计算 复杂 ， 
贝 叶 斯 算法 i m 传统 CAT/IMCAT 
和 MEM FEIN 
JEA, SIE. SimIE. SIE-R. 
联合 极 大 似 然 估 JEA-R、SIE-R-BIC、 联合 估计 矩阵 和 —— 
il JEA-R-BIC 项 目 参 数 
RMSEA-N 


4 FARA fr EURO LE AU 
里 论 上 ， 随 着 测验 的 进行 ， 能 力 估计 会 越 来 越 准 确 ， 将 新 题 谋 入 在 测验 的 最 后 有 利于 提 


Ht 


BSN. SKE, AWS ANKARTAMGILRKALEA AME KF, SETS, 


201 1a). EA IUD E XE fi Eb Kingsbury, 2009 I RAE ERT PAR Je BEI BIL bz (Zheng, 


2014; He et al., 2019) 几 种 方式 。 不 同 仍 入 位 置 对 参数 标定 产生 不 同 的 影响 ， 目 前 还 缺乏 对 
不 同方 式 进行 系统 的 比较 研究 ， 也 缺乏 对 新 的 众 入 方式 的 探索 。 例 如 ， 结 合 能 力 估计 精度 确 


定 典 入 位 置 等 等 。 


目前 ， 在 线 标定 中 新 题 的 终止 规则 主要 有 三 种 思路 : 基于 作答 新 题 的 预 设 样本 量规 则 


CAli & Chang, 2014; Zhu, 2006)、 基 于 新 题 参数 估计 精度 的 规则 (Ren et al., 2017) 和 基于 


参数 估计 稳定 性 规则 (Kingsbury, 2009)。 首 先 ， 虽 有 研究 表明 题目 的 样本 量 达 到 500 就 能 


提供 比较 准确 的 参数 估计 值 ， 但 样本 量 对 新 题 标定 的 影响 还 有 待 深入 研究 。 其 次 ， 应 用 新 题 


参数 估计 精度 的 规则 时 还 应 设 定 考生 样本 上 限 ， 以 避免 某 些 题 目 一 直 不 停止 测验 的 风险 。 最 
后 ， 参 数 估计 稳定 性 规则 容易 受到 参数 估计 方法 的 影响 ， 需 要 考虑 迭代 不 收敛 的 问题 。 新 题 
何 时 停止 施 测 决定 参数 标定 的 准确 性 , 今后 既 应 系统 比较 已 有 方法 的 表现 , 也 应 基于 新 的 思 
路 并 结合 多 种 信息 深入 研究 新 题 的 终止 规则 。 

5 研究 展望 

E 项 目 增补 对 题库 的 开发 和 维护 至 关 重 要 , 在 线 标定 技术 的 出 现 为 项 目 增补 开辟 了 新 的 途 
= 径 。 纵 观 国内 外 在 线 标定 技术 的 研究 ， 主 要 集中 于 在 线 标定 设计 和 在 线 标定 方法 。 本 文 首先 
o MJ Ee Ub RUE HE FE LU RC ft RE 4 SS f SE ve E E PRB ES ANT IR E EDU DC 


然后 ， 分 别针 对 传统 CAT. MCAT 和 CD-CAT 介绍 在 线 标定 方法 、 分 析 相 关 发 展 趋势 和 思 


(一 


路 。 最后， 对 新 题 嵌入 位 置 和 终止 规则 的 相关 研究 进行 阐述 并 浅 析 。 尽 管 在 线 标定 设计 和 在 
线 标定 算法 已 取得 丰富 的 研究 成 果 , 但 仍 有 值得 深思 和 改进 的 地 方 。 总 体 上 ,未 来 还 可 以 从 
以 下 方面 开展 深入 研究 。 

51 基于 信息 量 指标 进一步 探究 在 线 标定 设计 

目前 关于 在 线 标定 设计 的 研究 主要 围绕 DD- 优化 展开 。 除 了 DD- 优化 设计 ， 基 于 其 它 信息 
量 指标 都 可 以 建构 类 似 的 关于 项 目 参数 的 信息 量 指标 ， 并 用 于 选择 新 题 。 例 如 ， 未 来 可 以 将 


KL 信息 Ckullback-leibler, KL; Xu et al., 2003)、 后 验 加 权 KL 信息 (posterior weighted KL, 


PWKL; Cheng, 2009)、 香 农 (shannon entropy, SHE; Wang & Chang, 2011) 和 互信 息 (mutual 


information, MI; Mulder & van der Linden, 2009) 等 信息 量 转换 到 表征 被 试 对 项 目 参 数 提供 的 
信息 量 ， 以 此 来 构建 在 线 标 定 设 计 的 选 题 指 标 ， 都 具有 非常 重要 的 价值 。 
52 深入 项 目 增补 方法 的 实证 研究 

目前 关于 项 目 增补 的 研究 以 理论 为 主 , 仅 采 用 模拟 实验 检验 在 线 标定 方法 以 及 在 线 标定 
设计 的 可 行 性 和 表现 。 尽管 模拟 实验 可 以 控制 实验 条 件 开 展 重复 实验 , 但 很 难保 证 与 真实 情 
境 具备 完全 一 致 的 测验 条 件 。 真 实 的 测验 情景 中 , 利用 在 线 标定 技术 标定 新 题 参数 ,不仅 可 
以 验证 已 有 的 在 线 标 技术 的 可 行 性 ， 还 能 发 现在 模拟 实验 中 难以 发 现 的 问题 。 因此 ， 有 必要 


在 真实 测验 情景 验证 这 些 方法 的 表现 。 


5.3 深入 研究 CD-CAT 在 线 标定 方法 

近 二 十 年 来 , 认 知 诊断 模型 得 到 了 极 大 的 丰富 和 发 展 , 呈现 出 从 单一 测验 条 件 到 复杂 测 
验 条 件 模 型 ， 从 低 阶 到 高 阶 模型 ， 从 特殊 到 一 般 模型 的 发 展 特点 。 因 此 未 来 研究 可 以 (1) 
于 一 般 化 认 知 诊断 模型 ,建构 一 般 化 的 在 线 标定 方法 , 并 在 多 种 特殊 的 诊断 模型 下 比较 它 
们 的 表现 ;2) 引入 校正 知识 状态 和 项 目 参 数 估计 误差 的 方法 , 改进 已 有 在 线 标定 方法 ; G) 
进一步 探究 9 矩阵 和 项 目 参数 的 联合 估计 ; (4) 将 已 有 的 在 线 标定 方法 推广 到 多 级 评分 项 
目 、 属 性 多 级 等 复杂 测验 条 件 ;(5) 探索 属性 层级 结构 、 模 型 复杂 度 、 样 本 量 和 新 题 欢 入 位 
置 等 因素 对 在 线 标定 方法 的 影响 。 
5.4 加 强 MCAT 中 在 线 标定 技术 的 研究 

将 传统 CAT 的 在 线 标 定 设计 和 方法 推广 到 MCAT 中 是 未 来 研究 的 一 种 简单 可 行 的 方法 。 
这 种 推广 只 是 测量 模型 从 单 维 IRT 模型 变化 成 多 维 耻 T 模型 ， 被 试 的 潜在 特质 由 单 维 变 成 
Zi, 公式 推导 的 思想 不 变 ， 具体 计算 发 生 相 应 变化 。 多 维 模型 在 实践 中 具有 广泛 应 用 ， 研 


究 MCAT 中 项 目 参 数 的 标定 方法 是 今后 研究 的 重要 方向 。 
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Online calibration based on computerized adaptive testing: 


Design and method 


ZHANG Xuegin!; MAO Xiuzhen!; LI Jia! 
(Institute of Educational Science, Sichuan Normal University, Sichuan Chengdu, 610066) 


Abstract: Item replenishment is essential for item bank development and maintenance, where 
new items' parameter calibration plays a significant role. Two core techniques of item 
replenishment under the circumstances of computerized adaptive testing (CAT) are: 1) online 
calibration design; 2) online calibration method. The former investigates the administration way of 
new items, while the later explores parameter estimation methods. This paper aims to clarify the 
development ideas and contexts of online calibration design and online calibration method. 
Additionally, their characteristics, relations and performance were illustrated and evaluated in 
details. At the end, several future research directions were pointed out. It is important to further 
study online calibration design based on different information indicators and online calibration 
methods based on joint estimations and error corrections. Moreover, future study could explore the 


online calibration. technique in cognitive diagnostic CAT(CD-CAT) and multidimensional 


202008.00080v1 


chinaXiv 


CAT(MCAT), as well as the empirical applications of item replenishment. 
Key words: computerized adaptive testing; cognitive diagnostic theory; item replenishment; 


online calibration design; online calibration method 


